※ 본 문서는 PC 환경에 최적화되어있습니다.

1 목차

구상 중입니다.

2 데이터셋 위치

모든 데이터셋은 ‘./data/Datasets/’ 디렉터리 안에 있습니다.

3 정제 데이터셋

데이터셋 랭글링 과정을 담았습니다.

3.1 행정경계 데이터 불러오기

먼저, 분석 스케일의 뼈대가 되는 행정경계 데이터를 불러왔습니다.

3.1.3 행정동

좌표투영이 되어있지 않은 파일이라 구득 웹 사이트(국가공간정보포털 오픈마켓) 상에서 메타데이터를 확인하여, 지리원 표준 좌표계 중 하나인 ‘EPSG:5181’(중부원점, GRS80)로 좌표계를 정의해주고, 불러옴과 동시에 서울 행정동만 추출하였습니다.

3.2 서울시 인구

서울시 인구 자료를 정제하였으며, 2020년 1/4분기 자료입니다.

3.2.2 자료의 출처

해당 자료는 서울시 주민등록인구 (구별) 통계서울시 주민등록인구 (동별) 통계에서 구득하였습니다.

3.2.3 정제 과정 - 구

먼저 앞서 언급한 웹 페이지에서 구득한 구분자(Delimiter)로 구성된 파일을 불러왔습니다.

추후에 셰이프 파일 형식으로도 사용할 수 있게 필드 최대 허용 바이트 수를 넘지 않는 선에서 열 이름을 변경하였습니다.

반복문과 조건문을 사용하여 문자열 열을 수치형 열로 바꿔주는 작업입니다.
천 단위마다 찍히는 콤마를 제거하고, 문자형 열을 제외한 나머지 열만 수치형으로 변환하였습니다.

정제 결과물입니다.

위의 결과물을 서울시 구 공간 데이터에 속성정보로 넣었습니다.

3.2.4 정제 과정 - 동

구에서 정제한 방법과 유사하게 진행하였으며, 먼저 구분자(Delimiter)로 구성된 파일을 불러왔습니다.

추후에 셰이프 파일 형식으로도 사용할 수 있게 필드 최대 허용 바이트 수를 넘지 않는 선에서 열 이름을 변경하였습니다.

반복-조건문을 사용하여 문자형을 수치형으로 변환하였고, 인구자료에는 시군구 코드가 없는 관계로 공간자료 속성정보에 조인(join) 대상을 맞춰주는 작업을 진행하였습니다. 아래는 온점(.)을 가운뎃점(·)으로 변환하는 과정입니다.

아래 과정도 조인 대상을 맞춰주는 과정으로, 중복된 동 이름을 알맞게 변환하는 과정입니다.

다음은 공간자료의 속성정보로 넣어주는 과정입니다.

위에서 조인을 하면서 자연스럽게 구마다 존재하는 소계 항목(행)을 자연스럽게 제거한 결과물입니다.

3.3 올리브영 매장

3.3.2 자료의 출처

해당 문서에서 정제한 올리브영 자료는 2020년 7월 19일 기준입니다.

해당 자료는 올리브영 매장안내에서 구득하였습니다.

올리브영 웹 페이지에 게시된 서울시 매장 목록을 사용할 목적으로 html 크롤링을 시도하였으나

위와 같이 스크롤을 모든 항목이 나타날 때까지 해야 되므로, 아래와 같이

스크롤을 하여 모든 항목을 불러온 뒤, 해당 요소를 ’Notepad++’을 사용하여 별도의 html 파일을 생성하였습니다.

3.3.3 정제 과정

먼저, 생성한 html을 불러왔습니다.

불러온 html에서 ‘매장명’과 ’주소’, ‘전화번호’, ’관심매장등록수’를 추출한 뒤, 하나의 데이터프레임을 만들었습니다.

            name                                                  addr
1   은행사거리점 서울특별시 노원구 한글비석로 264 중계그랜드프라자 1층
2       중계역점                서울특별시 노원구 동일로 1335 (상계동)
3 노원역사거리점                          서울특별시 노원구 노해로 480
4         노원점               서울특별시 노원구 상계로 65 105호,106호
5 홈플러스중계점 서울특별시 노원구 동일로204가길 12 홈플러스중계점 1층
6     상계보람점                      서울특별시 노원구 한글비석로 471
      ph.numb  noi
1 02-938-9305 1278
2 02-930-2952  518
3 02-934-5123 2365
4 02-935-5290 1948
5 02-948-6960  526
6 02-930-2532  729

위 데이터프레임을 바로 뒤에 언급할 지오코딩 툴을 사용하여 잘못된 주소를 바로잡았습니다.

다음의 표에서 검색도 가능합니다.

3.3.5 자료의 공간정보화

먼저 GCS(WGS84)를 사용하여 지오코딩으로 획득한 좌표를 사용하여 공간정보로 변환하였습니다. 또한 행정경계 파일과 좌표체계를 통일하여 공간연산이 가능하게 하였습니다.

3.3.6 공간연산

구, 행정동당 올리브 영의 수를 연산하였습니다.

 0  1  2  3  4  5 
15 22 12 11 14  8 
0 1 2 3 4 5 
1 2 0 1 0 1 

위에서 연산한 1차 배열의 자료를 두 행정구역 자료의 속성 테이블에 각각 넣어주었습니다.

3.3.7 올리브영 매장 분포 시각화

올리브영 매장 분포

공간연산(구)

공간연산(행정동)